15.08.2024
15.08.2024
Vom SNF geförderte Forschende sollten ihre Datensätze in öffentlichen Archiven ablegen. Oft wird der SNF allerdings gar nicht informiert, ob die Vorgabe eingehalten wurde. Von den gemeldeten Datensätzen erfüllen die meisten die FAIR-Prinzipien.
Seitdem der SNF 2017 die Strategie der Open Research Data (ORD) eingeführt hat, verlangt er bei den meisten Förderinstrumenten einen Datenmanagement-Plan (DMP). Die aus der geförderten Forschung resultierenden Daten sollen in Archiven abgelegt werden, welche die FAIR-Prinzipien für die Offenlegung von Daten erfüllen.
Ziel des Datenmanagement-Plans (DMP) ist es, den vorgesehenen Lebenszyklus der aus einem Förderbeitrag resultierenden Daten zu definieren. Der Plan legt dar, wie Daten generiert, gesammelt, dokumentiert, publiziert und archiviert werden. Der SNF stellt den Forschenden eine Vorlage zur Verfügung, mit der sie ihren DMP erstellen können. Weitere Informationen liefern die DMP-Leitlinien für Forschende.
Die FAIR-Prinzipien haben zum Ziel, dass Datensätze auffindbar (findable), zugänglich (accessible), kompatibel (interoperable) und wiederverwendbar (re-usable) sind. Der SNF verlangt, dass Daten ohne Einschränkung wiederverwendet werden können, sofern keine rechtlichen, ethischen, urheberrechtlichen oder sonstigen Gründe dagegen sprechen. Offene Forschungsdaten und die FAIR-Prinzipien werden vom SNF als wichtig erachtet, da sie zur Wirkung, Transparenz und Reproduzierbarkeit der Forschung beitragen. Genauere Informationen dazu befinden sich auf der SNF-Website. Als Hilfe für die Forschenden beim Übergang zu FAIR-Forschungsdaten hat der SNF Mindestkriterien definiert, denen Datenarchive entsprechen müssen, damit sie die FAIR-Prinzipien erfüllen.
Der Anteil der Beitragsempfangenden, die dem SNF nach Abschluss ihres Projekts mindestens einen Datensatz als Teil ihrer Outputdaten melden (siehe Kasten), wächst bei allen Förderinstrumenten und Forschungsbereichen kontinuierlich1.
Die stärkste Zunahme (+26 Prozentpunkte seit 2017/18) war bei den Projekten im Bereich Mathematik, Informatik, Naturwissenschaft, Technik (MINT) zu verzeichnen. Auch in den Lebenswissenschaften (LW) ist die Zahl der gemeldeten Datensätze seit 2017/18 gestiegen (+17 Prozentpunkte). In den Geistes- und Sozialwissenschaften (GSW) wuchs die Zahl zwischen 2017/18 und 2021 (+9 Prozentpunkte), seither hat sich der Aufwärtstrend jedoch abgeflacht (+2 Prozentpunkte zwischen 2021 und 2023). In den GSW und vor allem in den Sozialwissenschaften betrifft ein Teil der Projekte sensible Daten; zudem sind die Publikationszyklen tendenziell länger.
Gesuchstellende, deren Beiträge 2023 ausliefen, mussten vor Projektbeginn einen DMP vorlegen. Gemäss den DMP bestand in vielen Fällen die Absicht, Datensätze in (häufig öffentlichen) FAIR-Archiven abzulegen (siehe auch den ersten Bericht des SNF über die Einhaltung der ORD-Vorgaben). Gemäss unserer Analyse wurde jedoch für lediglich 23% oder 363 dieser Beiträge (von insgesamt 1548 auslaufenden Beiträgen im Jahr 2023) mindestens ein Datensatz gemeldet. Beitragsempfangende, die tatsächlich Datensätze veröffentlichten, stellten durchschnittlich 3,7 Datensätze zur Verfügung, was insgesamt 1344 gemeldete Datensätze ergab.
Ein Vergleich zwischen Open Research Data (ORD) und Open-Access-Publikationen zeigt, dass die meisten Beitragsempfangenden wissenschaftliche Publikationen meldeten, die überwiegend öffentlich zugänglich waren. Häufig stützen sich solche Publikationen auf Datensätze, die als Forschungsergebnisse gemeldet werden sollten. Deshalb stellt sich die Frage, weshalb der ORD-Anteil lediglich 23% beträgt. Die Gründe für diesen geringen Anteil sind vielfältig und nicht immer ganz klar:
Die vorliegende Analyse zeigt, dass der SNF weiterhin die Forschenden für das Thema offene Forschungsdaten sensibilisieren muss. Ein Schritt besteht darin, dieses ORD-Monitoring künftig regelmässig durchzuführen. Indem der SNF die Ergebnisse analysiert und veröffentlicht, will er aufzeigen, wie wichtig gute ORD-Praktiken sind.
Im internationalen Vergleich deckt sich die Beobachtung, dass nur ein kleiner Teil der Beitragsempfangenden mindestens einen Datensatz meldet, mit der Studie des PLOS-Verlags. Der Studie zufolge bezogen sich rund 28% der PLOS-Forschungsartikel auf einen in einem Datenarchiv öffentlich zugänglichen Datensatz. Bei auf PuBMed Central publizierten öffentlichen Forschungsartikeln waren es 15%. Die Ergebnisse stehen auch in Einklang mit dem European Research Data Landscape Survey: Gemäss dieser Umfrage veröffentlichten 22% der Befragten während ihrer aktuellen oder letzten Forschungstätigkeit Daten in Archiven. Somit bewegen sich die ORD-Anteile bei anderen Organisationen auf ähnlichem Niveau wie beim SNF. Es dürfte deshalb auch strukturelle Gründe für den geringen Anteil von gemeldeten Datensätzen bei SNF-Förderbeiträgen geben.
Das Ergebnis des vorliegenden Monitorings ist Ausdruck eines systembedingten Problems: Offene Forschungsdaten sind in der Wissenschaft noch nicht so etabliert wie frei zugängliche Publikationen. Die Zahlen zeigen jedoch einen ansteigenden Trend. Mit seiner ORD-Strategie unterstützt der SNF diese Entwicklung und setzt ein Zeichen für mehr Transparenz in der Wissenschaft.
Wie die nächste Grafik veranschaulicht, wählen die Forschenden für die Bereitstellung von Datensätzen in den meisten Fällen digitale Datensammlungen, die den FAIR-Prinzipien entsprechen. FAIR bedeutet allerdings nicht zwingend auch frei zugänglich. Dies hängt manchmal, aber nicht immer mit legitimen Datenschutzbestimmungen zusammen. Gemäss dieser ersten Analyse konnte nur rund die Hälfte der gemeldeten Datensätze als offen identifiziert werden, während dies bei der anderen Hälfte unklar war (siehe Kasten «Wie sammelt der SNF die Outputdaten?» am Ende des Artikels).
Seit 2017 wird Zenodo immer beliebter. Innert vier Jahren wurde es zum Archiv der Wahl für 40% der gemeldeten Datensätze. Abgesehen von einigen wenigen Datenarchiven (v.a. Zenodo und ETH Research Collections) werden die Archive je nach Forschungsbereich sehr unterschiedlich genutzt (Open Science Framework und SwissUbase von den GSW und Gene Expression Omnibus von den LW). Diese Fragmentierung widerspiegelt die grosse Vielfalt der Daten in den vom SNF finanzierten Projekten.
Datensätze werden also immer häufiger gemeldet und auf Archiven, die den FAIR-Prinzipien entsprechen, zugänglich gemacht. Dies weist auf ein wachsendes Bewusstsein dafür hin, dass sich der Forschungsoutput nicht auf wissenschaftliche Artikel beschränkt und dass die Bereitstellung von (Meta-)Daten wichtige und wertvolle Informationen liefert. Während jedoch die meisten wissenschaftlichen Publikationen von SNF-Beitragsempfangenden öffentlich zugänglich sind, besteht bei der Offenlegung und Meldung von Datensätzen noch beträchtliches Verbesserungspotenzial. Das derzeitige System zur Würdigung wissenschaftlicher Leistungen ist immer noch zu sehr auf die Veröffentlichung von Publikationen ohne die zugrunde liegenden Datensätze ausgerichtet. Mit der Nationalen Strategie für Open Research Data und dem dazugehörigen Aktionsplan tragen der SNF und seine Partner im Forschungsbereich dazu bei, dass sich die Praxis der offenen Wissenschaft durchsetzt und Datensätze als wichtige Forschungsergebnisse anerkannt werden.
Seit 2011 werden die Beitragsempfangenden aufgefordert, dem SNF ihren Forschungsoutput zu melden (2018 wurde die Kategorie «Datensatz» hinzugefügt). Die Beitragsempfangenden können die Outputdaten jederzeit während oder nach der Beitragsdauer eingeben. Sie werden jeweils bei der Einreichung eines wissenschaftlichen Berichts (Jahres-, Zwischen- oder Schlussbericht) sowie eineinhalb Jahre nach Beitragsende daran erinnert, dass sie Outputdaten einreichen sollten.
Die in dieser Datengeschichte verwendeten Daten stammen aus den «Outputdaten: Datensets», die im Bereich Datensätze des SNF-Datenportals verfügbar sind. Berücksichtigt wurden alle Förderinstrumente (ausser Infrastrukturen und Wissenschaftskommunikation).
In die Berechnung des Anteils der Beitragsempfangenden, die einen Datensatz meldeten, flossen Förderbeiträge ein, die zwischen Oktober 2017 und Dezember 2023 endeten. Für die letzten beiden Grafiken wurden die Daten aus den «Outputdaten: Datensets» Mitte März 2023 erhoben. Eingeflossen sind Förderbeiträge, die zwischen Oktober 2017 und Dezember 2022 endeten.
Die Daten wurden manuell bearbeitet, um die FAIRness der Datenarchive im Sinne der SNF-Leitlinien zu überprüfen. Diese FAIRness entwickelt sich im Laufe der Zeit, und es ist möglich, dass die Einhaltung der vom SNF festgelegten ORD-Kriterien bei den in dieser Studie untersuchten Datenarchiven nicht mehr gleich ist wie zum Zeitpunkt der Studie.
Die vom SNF geförderten Forschenden werden aufgefordert, Datensätze zu veröffentlichen, auf denen ihre Publikationen beruhen. Die Daten sollten öffentlich zugänglich sein, sofern keine rechtlichen, ethischen, urheberrechtlichen oder sonstigen Gründe dagegen sprechen. Die Offenheit eines Datensatzes mit DOI-Nummer wurde anhand von Metadaten von DataCite bestimmt. Ein Datensatz wurde als öffentlich zugänglich betrachtet, wenn die Metadaten darauf hinwiesen, dass der Datensatz öffentlich oder mit einer öffentlichen Lizenz versehen war oder eine der folgenden Lizenzen hatte:
Bei Datensätzen ohne Metadaten zur Offenheit oder zu einer allfälligen Lizenz wurde angenommen, dass diese Angaben nicht bekannt sind.
Daten, Text und Code dieser Datengeschichte sind auf Github verfügbar und auf Zenodo archiviert.
DOI: 10.46446/datastory.open-research-data-2023
Förderbeiträge für Infrastrukturen und Wissenschaftskommunikation sind von dieser Analyse ausgenommen.↩︎